Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Comparative experiments of several adaptation approaches to noisy speech recognition using stochastic trajectory models

Identifieur interne : 00BF63 ( Main/Exploration ); précédent : 00BF62; suivant : 00BF64

Comparative experiments of several adaptation approaches to noisy speech recognition using stochastic trajectory models

Auteurs : Olivier Siohan [France] ; Yifan Gong [France] ; Jean-Paul Haton [France]

Source :

RBID : ISTEX:5AE9758FB450A76F8EC2B0DEA437CEC603F1A1BB

Descripteurs français

English descriptors

Abstract

Abstract: The paper describes experiments on noisy speech recognition, using acoustic models based on the framework of Stochastic Trajectory Models (STM). We present the theoretical framework of 4 different approaches dealing with speech model adaptation: model-specific linear regression, speech feature space transformation, noise and speech models combination, STM state-based filtering. Experiments are performed on a speaker-dependent, 1011 word continuous speech recognition application with a word-pair perplexity of 28, using vocabulary-independent acoustic training, context independent phone models, and in various noisy testing environments. To measure the performance of each approach, recognition rate variation is studied under different noise types and noise levels. Our results show that the linear regression approach significantly outperforms the other methods, for every tested noise types at medium SNRs (between 6 to 24 dB). For the Gaussian noise, with an SNR between 6 to 24 dB, we observe a reduction of the word error rate from 20% to 59% when the linear regression is used, compared to the other methods.
Zusammenfassung: Dieser Artikel beschreibt Experimente zur Erkennung von verrauschter Sprache unter Verwendung von akustischen Modellen, die sich auf die stochastische Trajektorien-Methode (STM) stützen. Der theoretische Hintergrund von vier verschiedenen Ansätzen bezüglich der Sprachmodelladaptation wird vorgestellt: modellspezifische lineare Regression, Transformation des akustischen Bezugraums, Kombination von stochastischen Sprach- und Geräuschmodellen, zustandsabhängiges Filtern des verrauschten Signals. Die Bewertung der verschiedenen Ansätze wurde an einer Anwendung sprecherabhängiger Erkennung kontinuierlicher Sprache mit einem Vokabular von 1011 Wörtern und einer Grammatik mit einer Perplexität von 28 Wortpaaren durchgeführt. Dabei wurden ein wortunabhängiges akustisches Training, ein kontextunabhängiges Phonmodell und einige durch unterschiedliches Rauschen gestörte Testumgebungen benutzt. Die Variationen der Erkennungsraten wurden unter verschiedenen Rauscharten und -niveaus getestet, um die Leistung eines jeden Ansatzes zu messen. Die Messungen zeigen, daβ der Ansatz mit der linearen Regression für alle getesteten Rauscharten und für die gemäβigten SNRs (zwischen 6 und 24 dB) die besten Ergebnisse liefert. Für ein Gaussches Rauschen mit einem Signal/Rausch-Verhältnis von 6 bis 24 dB konnte unter Verwendung der linearen Regressionsmethode eine Verminderung der Wortfehlerrate von 20% bis 59%, verglichen mit den anderen Ansätzen, beobachtet werden.
Résumé: Cet article présente différentes approches pour la reconnaissance de parole en présence de bruit, intégrées à une Modélisation Stochastique des Trajectoires de parole (STM). Nous décrivons 4 méthodes: adaptation des modèles acoustiques par régression linéaire, transformation de l'espace acoustique de référence, combinaison de modèles stochastiques de parole et bruit, filtrage par état du signal bruité. L'évaluation des différentes approches est effectuée en mode dépendant du locuteur, sur une application de reconnaissance de parole continue comportant un vocabulaire de 1011 mots avec une grammaire de perplexité 28 (paire de mots). Les modèles acoustiques sont des modèles de phones indépendants du contexte, et leur apprentissage est effectué indépendamment de la tâche. Les différentes approches sont évaluées sous des conditions de bruit additifs variées, comprenant différents types de bruit et différents rapports signal-à-bruit. Les expériences montrent que l'adaptation des modèles par régression linéaire conduit aux meilleurs résultats, pour tous les types de bruits testés, et pour des rapports signal-à-bruit modérés (de 6 à 24 dB). En présence d'un bruit Gaussien, pour un rapport signal-à-bruit variant de 6 à 24dB, l'adaptation par régression linéaire réduit le taux d'erreur de mots de 20% à 59% par rapport aux autres approches.

Url:
DOI: 10.1016/0167-6393(96)00015-5


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI wicri:istexFullTextTei="biblStruct">
<teiHeader>
<fileDesc>
<titleStmt>
<title>Comparative experiments of several adaptation approaches to noisy speech recognition using stochastic trajectory models</title>
<author>
<name sortKey="Siohan, Olivier" sort="Siohan, Olivier" uniqKey="Siohan O" first="Olivier" last="Siohan">Olivier Siohan</name>
</author>
<author>
<name sortKey="Gong, Yifan" sort="Gong, Yifan" uniqKey="Gong Y" first="Yifan" last="Gong">Yifan Gong</name>
</author>
<author>
<name sortKey="Haton, Jean Paul" sort="Haton, Jean Paul" uniqKey="Haton J" first="Jean-Paul" last="Haton">Jean-Paul Haton</name>
<affiliation>
<country>France</country>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:5AE9758FB450A76F8EC2B0DEA437CEC603F1A1BB</idno>
<date when="1996" year="1996">1996</date>
<idno type="doi">10.1016/0167-6393(96)00015-5</idno>
<idno type="url">https://api.istex.fr/ark:/67375/6H6-58RN2NFV-6/fulltext.pdf</idno>
<idno type="wicri:Area/Istex/Corpus">001512</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Corpus" wicri:corpus="ISTEX">001512</idno>
<idno type="wicri:Area/Istex/Curation">001495</idno>
<idno type="wicri:Area/Istex/Checkpoint">002864</idno>
<idno type="wicri:explorRef" wicri:stream="Istex" wicri:step="Checkpoint">002864</idno>
<idno type="wicri:doubleKey">0167-6393:1996:Siohan O:comparative:experiments:of</idno>
<idno type="wicri:Area/Main/Merge">00C784</idno>
<idno type="wicri:source">INIST</idno>
<idno type="RBID">Pascal:96-0387881</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000D35</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000B56</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000C98</idno>
<idno type="wicri:explorRef" wicri:stream="PascalFrancis" wicri:step="Checkpoint">000C98</idno>
<idno type="wicri:doubleKey">0167-6393:1996:Siohan O:comparative:experiments:of</idno>
<idno type="wicri:Area/Main/Merge">00C985</idno>
<idno type="wicri:Area/Main/Curation">00BF63</idno>
<idno type="wicri:Area/Main/Exploration">00BF63</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title level="a">Comparative experiments of several adaptation approaches to noisy speech recognition using stochastic trajectory models</title>
<author>
<name sortKey="Siohan, Olivier" sort="Siohan, Olivier" uniqKey="Siohan O" first="Olivier" last="Siohan">Olivier Siohan</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>CRIN — CNRS & INRIA Lorraine, BP 239, 54506 Vandæuvre-lès-Nancy</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandæuvre-lès-Nancy</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Gong, Yifan" sort="Gong, Yifan" uniqKey="Gong Y" first="Yifan" last="Gong">Yifan Gong</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>CRIN — CNRS & INRIA Lorraine, BP 239, 54506 Vandæuvre-lès-Nancy</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandæuvre-lès-Nancy</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Haton, Jean Paul" sort="Haton, Jean Paul" uniqKey="Haton J" first="Jean-Paul" last="Haton">Jean-Paul Haton</name>
<affiliation wicri:level="3">
<country xml:lang="fr">France</country>
<wicri:regionArea>CRIN — CNRS & INRIA Lorraine, BP 239, 54506 Vandæuvre-lès-Nancy</wicri:regionArea>
<placeName>
<region type="region" nuts="2">Grand Est</region>
<region type="old region" nuts="2">Lorraine (région)</region>
<settlement type="city">Vandæuvre-lès-Nancy</settlement>
</placeName>
<placeName>
<settlement type="city">Nancy</settlement>
<region type="region" nuts="2">Grand Est</region>
<region type="region" nuts="2">Lorraine (région)</region>
</placeName>
<orgName type="laboratoire" n="5">Laboratoire lorrain de recherche en informatique et ses applications</orgName>
<orgName type="university">Université de Lorraine</orgName>
<orgName type="institution">Centre national de la recherche scientifique</orgName>
<orgName type="institution">Institut national de recherche en informatique et en automatique</orgName>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series>
<title level="j">Speech Communication</title>
<title level="j" type="abbrev">SPECOM</title>
<idno type="ISSN">0167-6393</idno>
<imprint>
<publisher>ELSEVIER</publisher>
<date type="published" when="1996">1996</date>
<biblScope unit="volume">18</biblScope>
<biblScope unit="issue">4</biblScope>
<biblScope unit="page" from="335">335</biblScope>
<biblScope unit="page" to="352">352</biblScope>
</imprint>
<idno type="ISSN">0167-6393</idno>
</series>
</biblStruct>
</sourceDesc>
<seriesStmt>
<idno type="ISSN">0167-6393</idno>
</seriesStmt>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Comparative study</term>
<term>Filtering</term>
<term>Linear regression</term>
<term>Noise reduction</term>
<term>Speech processing</term>
<term>Speech recognition</term>
<term>Stochastic model</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Etude comparative</term>
<term>Filtrage</term>
<term>Modèle stochastique</term>
<term>Reconnaissance parole</term>
<term>Réduction bruit</term>
<term>Régression linéaire</term>
<term>Traitement parole</term>
</keywords>
<keywords scheme="Teeft" xml:lang="en">
<term>Acoustic</term>
<term>Acoustic models</term>
<term>Acoustic training</term>
<term>Adaptation</term>
<term>Adaptation class</term>
<term>Adaptation corpus</term>
<term>Adaptation data</term>
<term>Adaptation sentences</term>
<term>Adaptation trajectory</term>
<term>Additive noise</term>
<term>Autobus noises</term>
<term>Auxiliary function</term>
<term>Base element</term>
<term>Base elements</term>
<term>Base transformation</term>
<term>Best results</term>
<term>Cambridge university</term>
<term>Cepstral</term>
<term>Cepstral domain</term>
<term>Cepstrum</term>
<term>Clean speech</term>
<term>Clean speech signal</term>
<term>Clean speech sims</term>
<term>Compemolle</term>
<term>Component trajectory</term>
<term>Confidence intervals</term>
<term>Continuous speech recognition task</term>
<term>Covariance</term>
<term>Covariance matrix</term>
<term>Diagonal covariance matrices</term>
<term>Diagonal matrices</term>
<term>Different approaches</term>
<term>Different symbols</term>
<term>Differentes approches</term>
<term>Discrete cosine</term>
<term>Engineering department</term>
<term>Estimation</term>
<term>Estimation errors</term>
<term>Free parameters</term>
<term>Function communication</term>
<term>Gaussian</term>
<term>Gaussian distribution</term>
<term>Gaussian noise</term>
<term>General tendency</term>
<term>Gong</term>
<term>Grand vector</term>
<term>Haton</term>
<term>High snrs</term>
<term>Ieee internat</term>
<term>Ieee trans</term>
<term>Label observations</term>
<term>Language processing</term>
<term>Large number</term>
<term>Last column</term>
<term>Linear combination</term>
<term>Linear power</term>
<term>Linear regression</term>
<term>Linear regression framework</term>
<term>Linear regression scheme</term>
<term>Linear transformation</term>
<term>Logarithmic domain</term>
<term>Lynx helicopter</term>
<term>Matrix</term>
<term>Medium snrs</term>
<term>Mixture component</term>
<term>Model combination</term>
<term>Model combination framework</term>
<term>Noise adaptation</term>
<term>Noise adaptation schemes</term>
<term>Noise model</term>
<term>Noise observations</term>
<term>Noise types</term>
<term>Noisy</term>
<term>Noisy environment</term>
<term>Noisy environments</term>
<term>Noisy speech</term>
<term>Noisy speech cepstrum vector</term>
<term>Noisy speech recognition</term>
<term>Noisy speech recognition approaches</term>
<term>Noisy trajectory</term>
<term>Normal distribution</term>
<term>Other approaches</term>
<term>Other methods</term>
<term>Parameter</term>
<term>Phone models</term>
<term>Phoneme</term>
<term>Phoneme symbol</term>
<term>Phonetic label</term>
<term>Phonetic level</term>
<term>Precision matrix</term>
<term>Proc</term>
<term>Recognition rate</term>
<term>Recognition results</term>
<term>Reference environment</term>
<term>Regression</term>
<term>Same transformation matrix</term>
<term>Search stage</term>
<term>Similar approach</term>
<term>Siohan</term>
<term>Small adaptation corpus</term>
<term>Snrs</term>
<term>Speaker adaptation</term>
<term>Speech adaptation corpus</term>
<term>Speech communicarion</term>
<term>Speech communication</term>
<term>Speech enhancement</term>
<term>Speech recognition</term>
<term>Speech recognition approaches</term>
<term>Speech recognition system</term>
<term>Speech recognizers</term>
<term>Speech signal process</term>
<term>Square matrix</term>
<term>Stm</term>
<term>Stochastic</term>
<term>Stochastic trajectory models</term>
<term>Technical report</term>
<term>Testing conditions</term>
<term>Theoretical framework</term>
<term>Total number</term>
<term>Training corpus</term>
<term>Training sentences</term>
<term>Trajectory</term>
<term>Transformation matrices</term>
<term>Transformation matrix</term>
<term>Uncompensated system</term>
<term>Utterance segments</term>
<term>Word accuracy</term>
<term>Word error reduction</term>
<term>Words vocabulary</term>
</keywords>
</textClass>
<langUsage>
<language ident="en">en</language>
</langUsage>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="en">Abstract: The paper describes experiments on noisy speech recognition, using acoustic models based on the framework of Stochastic Trajectory Models (STM). We present the theoretical framework of 4 different approaches dealing with speech model adaptation: model-specific linear regression, speech feature space transformation, noise and speech models combination, STM state-based filtering. Experiments are performed on a speaker-dependent, 1011 word continuous speech recognition application with a word-pair perplexity of 28, using vocabulary-independent acoustic training, context independent phone models, and in various noisy testing environments. To measure the performance of each approach, recognition rate variation is studied under different noise types and noise levels. Our results show that the linear regression approach significantly outperforms the other methods, for every tested noise types at medium SNRs (between 6 to 24 dB). For the Gaussian noise, with an SNR between 6 to 24 dB, we observe a reduction of the word error rate from 20% to 59% when the linear regression is used, compared to the other methods.</div>
<div type="abstract" xml:lang="de">Zusammenfassung: Dieser Artikel beschreibt Experimente zur Erkennung von verrauschter Sprache unter Verwendung von akustischen Modellen, die sich auf die stochastische Trajektorien-Methode (STM) stützen. Der theoretische Hintergrund von vier verschiedenen Ansätzen bezüglich der Sprachmodelladaptation wird vorgestellt: modellspezifische lineare Regression, Transformation des akustischen Bezugraums, Kombination von stochastischen Sprach- und Geräuschmodellen, zustandsabhängiges Filtern des verrauschten Signals. Die Bewertung der verschiedenen Ansätze wurde an einer Anwendung sprecherabhängiger Erkennung kontinuierlicher Sprache mit einem Vokabular von 1011 Wörtern und einer Grammatik mit einer Perplexität von 28 Wortpaaren durchgeführt. Dabei wurden ein wortunabhängiges akustisches Training, ein kontextunabhängiges Phonmodell und einige durch unterschiedliches Rauschen gestörte Testumgebungen benutzt. Die Variationen der Erkennungsraten wurden unter verschiedenen Rauscharten und -niveaus getestet, um die Leistung eines jeden Ansatzes zu messen. Die Messungen zeigen, daβ der Ansatz mit der linearen Regression für alle getesteten Rauscharten und für die gemäβigten SNRs (zwischen 6 und 24 dB) die besten Ergebnisse liefert. Für ein Gaussches Rauschen mit einem Signal/Rausch-Verhältnis von 6 bis 24 dB konnte unter Verwendung der linearen Regressionsmethode eine Verminderung der Wortfehlerrate von 20% bis 59%, verglichen mit den anderen Ansätzen, beobachtet werden.</div>
<div type="abstract" xml:lang="fr">Résumé: Cet article présente différentes approches pour la reconnaissance de parole en présence de bruit, intégrées à une Modélisation Stochastique des Trajectoires de parole (STM). Nous décrivons 4 méthodes: adaptation des modèles acoustiques par régression linéaire, transformation de l'espace acoustique de référence, combinaison de modèles stochastiques de parole et bruit, filtrage par état du signal bruité. L'évaluation des différentes approches est effectuée en mode dépendant du locuteur, sur une application de reconnaissance de parole continue comportant un vocabulaire de 1011 mots avec une grammaire de perplexité 28 (paire de mots). Les modèles acoustiques sont des modèles de phones indépendants du contexte, et leur apprentissage est effectué indépendamment de la tâche. Les différentes approches sont évaluées sous des conditions de bruit additifs variées, comprenant différents types de bruit et différents rapports signal-à-bruit. Les expériences montrent que l'adaptation des modèles par régression linéaire conduit aux meilleurs résultats, pour tous les types de bruits testés, et pour des rapports signal-à-bruit modérés (de 6 à 24 dB). En présence d'un bruit Gaussien, pour un rapport signal-à-bruit variant de 6 à 24dB, l'adaptation par régression linéaire réduit le taux d'erreur de mots de 20% à 59% par rapport aux autres approches.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Grand Est</li>
<li>Lorraine (région)</li>
</region>
<settlement>
<li>Nancy</li>
<li>Vandæuvre-lès-Nancy</li>
</settlement>
<orgName>
<li>Centre national de la recherche scientifique</li>
<li>Institut national de recherche en informatique et en automatique</li>
<li>Laboratoire lorrain de recherche en informatique et ses applications</li>
<li>Université de Lorraine</li>
</orgName>
</list>
<tree>
<country name="France">
<region name="Grand Est">
<name sortKey="Siohan, Olivier" sort="Siohan, Olivier" uniqKey="Siohan O" first="Olivier" last="Siohan">Olivier Siohan</name>
</region>
<name sortKey="Gong, Yifan" sort="Gong, Yifan" uniqKey="Gong Y" first="Yifan" last="Gong">Yifan Gong</name>
<name sortKey="Haton, Jean Paul" sort="Haton, Jean Paul" uniqKey="Haton J" first="Jean-Paul" last="Haton">Jean-Paul Haton</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 00BF63 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 00BF63 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:5AE9758FB450A76F8EC2B0DEA437CEC603F1A1BB
   |texte=   Comparative experiments of several adaptation approaches to noisy speech recognition using stochastic trajectory models
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022